Извлечение низкочастотных терминов из специализированных текстов (Extraction of Low-Frequent Terms from Domain-Specific Texts)
نویسندگان
چکیده
We examined a method for extracting the low frequency important single-word terms from domain specific text. Firstly, domain-relevant fragments were extracted from the text with the help of a dependency tree. Then the fragments were clustered and candidate terms were defined using the semantic classifier. The studies suggest that this approach allows extracting even terms with a single occurrence.
منابع مشابه
Извлечение знаний и фактов из текстов диссертаций и авторефератов для изучения связей научных сообществ (Extraction of Knowledge and Facts from Texts of Theses and Abstracts for Studying of Communications of Scientific Communities)
متن کامل
Использование тематических моделей в извлечении однословных терминов (Application of Topic Models to the Task of Single-Word Term Extraction)
В статье представлены результаты экспериментов по применению тематических моделей к задаче извлечения однословных терминов. В качестве текстовых коллекций была взята подборка статей из электронных банковских журналов на русском языке и англоязычная часть корпуса параллельных текстов Europarl. Эксперименты показывают, что использование тематической информации значительно улучшает качество извлеч...
متن کاملСеть естественных иерархий терминов новостных текстов по событиям «Евромайдана» (Network of Natural Hierarchies of Terms of News Messages on the "Euromaydan" Events)
Построение большой тематической онтологии – сложная и затратная проблема. Определенным этапом разработки общих онтологий является формирование словарных номенклатур, терминологических онтологий. Эффективный автоматический отбор отдельных терминов для таких конструкций на основании неразмеченных текстовых массивов – не решенная окончательно задача [5, 6]. Проблема автоматического установления св...
متن کامل